#이미지 생성

구글 이미지 25주년, 새로운 비주얼 서치 및 AI 이미지 생성 기능 도입

구글이 이미지 검색 서비스 출시 25주년을 맞아, 사용자의 관심사 기반 맞춤형 이미지 갤러리와 검색 내 AI 오버뷰(AI Overviews)를 통한 AI 이미지 생성 기능을 새롭게 선보입니다. 특히 최신 '나노 바나나(Nano Banana)' 모델을 적용해 텍스트 프롬프트만으로 고품질 이미지를 생성할 수 있게 되어, 검색 경험의 혁신이 기대됩니다. 이는 그동안 텍스트 중심이었던 검색 환경이 시각적 탐색 및 생성형 AI를 통해 직관적인 정보 전달 및 제작이 가능한 단계로 진화했음을 시사합니다.

구글 비주얼 검색 이미지 생성

404 Media • 15일 전

독자들이 보내준 역대 최악의 AI 포스터 모음

404 Media 기자가 독자들에게 'ChatGPT 포스터(전단지)' 사례를 공유해달라고 요청한 후, 끔찍하고 황당한 AI 생성 광고물 사례가 쏟아졌습니다. 실생활 곳곳에 무분별하게 사용된 저품질의 AI 이미지에 대한 대중의 강한 거부감과 불만이 확인된 사안입니다.

이미지 생성 챗gpt 이메일 마케팅

The Decoder • 21일 전

메타 '뮤즈 이미지' 기술적 호평, 인스타 사진 무단 활용 논란

메타가 자율적으로 코드를 작성하고 웹 검색을 수행하는 에이전트 기반의 첫 이미지 생성 모델인 '뮤즈 이미지(Muse Image)'를 공개했습니다. 이 모델은 우수한 성능을 인정받아 이미지 아레나 평가에서 오픈AI 모델 다음으로 2위를 차지했습니다. 그러나 사용자가 다른 사람의 인스타그램 아이디만 입력하면 동의 없이 해당 인물의 사진을 학습해 새 이미지를 생성하는 기능이 추가되어, 유럽 연합(EU) 등에서 심각한 프라이버시 및 GDPR 위반 논란이 예상됩니다.

메타 AI 에이전트 이미지 생성

The Decoder • 28일 전

구글, 초고속 이미지 AI '나노 바나나 2 라이트' 및 비디오 생성 API 공개

구글이 1K 해상도 이미지를 4초 만에 생성하는 '나노 바나나 2 라이트'와 텍스트 명령어로 최대 10초 분량의 비디오를 생성 및 편집할 수 있는 '제미나이 오엠니 플래시' API를 출시했습니다. 개발자들은 비용 효율이 뛰어난 이 두 모델을 연속으로 연결(chaining)하여, 먼저 이미지를 빠르게 생성한 뒤 이를 비디오로 자연스럽게 애니메이션화하는 워크플로우를 구축할 수 있습니다.

구글 이미지 생성 비디오 생성

The Decoder • 33일 전

그록 AI 트래픽 절반 이상이 성인 콘텐츠

일론 머스크의 xAI가 개발한 AI 모델 '그록(Grok)'의 전체 트래픽 중 절반 이상이 성인용 이미지, 비디오, 롤플레잉 등 음란 콘텐츠에 집중된 것으로 파악되었습니다. 경쟁사들이 윤리적 문제로 기피하는 성인 콘텐츠 시장을 xAI가 적극적으로 공략하고 있으며, 심지어 일부 연구진의 사퇴와 GPU(그래픽 처리 장치) 임대 등 내부 변화가 일어나고 있어 업계에 큰 파장이 예상됩니다.

xAI 그록 성인 콘텐츠

Hacker News • 35일 전

Krea 2 공개: 창의적 탐색을 강화한 12B 오픈웨이트 이미지 모델

Krea 2는 단순히 완성도 높은 기본 스타일을 넘어, 사용자가 다양한 미적 스타일과 분위기를 폭넓게 탐색할 수 있도록 설계된 120억 개 매개변수(12B) 규모의 최신 오픈웨이트 이미지 생성 모델입니다. 확산 트랜스포머(Diffusion Transformer, DiT) 아키텍처와 다단계 학습 파이프라인을 통해 표현력과 제어력을 극대화했으며, 관대한 라이선스로 가중치를 공개해 실무자들이 자유롭게 활용할 수 있다는 점에서 중요합니다.

krea2 오픈소스 이미지 생성

TechCrunch AI • 50일 전

애플 AI가 완성하는 아이폰의 문장과 사진, 워크플로우

애플은 자사 앱 전반에 걸쳐 '애플 인텔리전스(Apple Intelligence)'의 대대적인 업데이트를 발표했습니다. 주요 내용으로는 자동 탭 그룹화 및 가격 모니터링 기능을 갖춘 사파리(Safari), 앱 간 문맥을 이해하는 전화 앱, 자연어 기반 단축어(Shortcuts) 자동 생성 등이 포함됩니다. 이는 개인 데이터를 활용해 OS 수준에서 차별화된 AI 경험을 제공하려는 애플의 전략적 시도로, 실무자들에게는 단순화된 자동화와 고품질 이미지 생성 도구를 활용한 생산성 향상의 기회를 제공합니다.

애플 인텔리전스 아이폰 업데이트 자연어 처리

TechCrunch AI • 50일 전

애플 사진 앱, 애플 인텔리전스 기반 신규 AI 편집 기능 추가

애플은 WWDC 2026에서 애플 인텔리전스를 활용하는 새로운 사진 앱 AI 편집 기능들을 발표했습니다. 핵심 기능으로는 AI를 통해 사진의 구도와 원근감을 자연스럽게 재조정하는 '리프레임(Reframe)', 배경을 확장하는 '확장(Extend)', 그리고 생성형 AI로 방해 요소를 더욱 깔끔하게 지우는 '정리(Cleanup)' 도구의 업그레이드가 포함됩니다. 이번 업데이트는 사용자가 본래의 촬영 환경을 넘어 사진을 유연하게 보정하고 재구성할 수 있도록 지원한다는 점에서 중요합니다.

애플 애플 인텔리전스 이미지 생성

Hacker News • 52일 전

학습 없이 1초 만에 고품질 이미지 생성하는 단일 이미지 디퓨전 모델

단 한 장의 이미지만으로 새로운 이미지를 생성하는 디퓨전 모델이 제안되었습니다. 기존 방식과 달리 신경망 학습 과정 없이, 이미지를 다양한 크기의 패치(Patch)로 분해하여 수학적으로 최적화된 노이즈 제거(Denoising) 기법을 적용했습니다. 이를 통해 기존 대비 최고 수준의 생성 품질을 달성함과 동시에, 1초 만에 메가픽셀 이미지 생성이 가능할 정도로 연산 속도를 혁신적으로 높였습니다.

디퓨전 모델 이미지 생성 비학습형 AI

The Decoder • 55일 전

아이디오그램 4.0, 오픈웨이트로 공개

텍스트-투-이미지 모델인 아이디오그램 4.0이 오픈웨이트 모델로 전격 공개되었습니다. 이번 업데이트는 기본 2K 해상도, 투명한 배경, 정밀한 레이아웃 제어 기능 및 눈에 띄게 향상된 이미지 내 텍스트 렌더링을 제공하며, 사용자의 자체 하드웨어에서 구동 및 파인튜닝이 가능합니다. 특히 상업적 활용도가 높은 로고 및 포스터 제작 실무자들에게 매우 유용한 핵심 툴로 평가받고 있습니다.

이미지 생성 오픈소스 아이디오그램

The Decoder • 56일 전

IMP 9

마이크로소프트 빌드 2026: 이미지 생성 최고, 추론 모델은 추격 중

마이크로소프트가 '빌드 2026' 행사에서 자체 개발한 7종의 AI 모델과 기업 맞춤형 강화학습 기반의 '프론티어 튜닝(Frontier Tuning)' 기술을 발표했습니다. 특히 이미지 생성 모델은 구글을 제치고 2위를 차지했으며, 1/10의 비용으로 GPT-5.4 수준의 성능을 내는 튜닝 기술이 비용 효율성의 핵심으로 강조되었습니다. 또한 사용자의 업무 패턴을 학습해 백그라운드에서 능동적으로 일정 관리 등을 수행하는 상시 작동 에이전트 '스카우트(Scout)'를 최초로 선보이며 AI 자동화 생태계를 확장했습니다.

마이크로소프트 자체 AI 모델 이미지 생성

Hacker News • 58일 전

IMP 9

로컬 기기용 초경량 이미지 생성 모델

PrismML이 노트북과 스마트폰 같은 로컬 기기에서 고품질 이미지 생성을 가능하게 하는 40억 파라미터(4B) 모델 'Bonsai Image 4B'를 공개했습니다. 이 모델은 가중치를 1비트(1-bit) 또는 삼진법(Ternary) 형태로 압축하여, 기존 풀 정밀도(FP16) 모델 대비 메모리 사용량을 약 6~8배 획기적으로 줄였습니다. 특히 이 파라미터 클래스의 이미지 모델 중 최초로 아이폰에서 직접 구동될 수 있어, 온디바이스 AI 생성 기술의 새로운 지평을 열었다는 데 큰 의미가 있습니다.

온디바이스 AI 이미지 생성 모델 경량화

The Decoder • 62일 전

마이크로소프트 'MAI-Image-2.5' 구글 모델과 동급 성능 달성

마이크로소프트가 공개한 최신 이미지 생성 모델 'MAI-Image-2.5'는 텍스트 렌더링, 스타일화된 일러스트 등에서 대폭 향상된 성능을 보여주며 벤치마크에서 구글의 모델과 동급의 경쟁력을 입증했습니다. 특히 상업용 제품 사진이나 브랜드 디자인 등 실무적 사용 사례에 최적화된 것이 특징이며, 오픈AI의 최상위 모델에는 아직 한 발 뒤처진다고 평가받고 있습니다.

마이크로소프트 이미지 생성 인공지능 경쟁

r/ChatGPT • 63일 전

ChatGPT가 찍은 '실수로 찍힌 셀카'

한 사용자가 ChatGPT에게 주머니에서 휴대폰을 꺼내다 실수로 찍힌 듯한 일상적이고 서툰 셀카를 생성해 달라고 프롬프트를 입력했습니다. 이에 ChatGPT는 흔들림, 과노출, 어색한 앵글 등 평범한 스마트폰 실수 사진의 특징을 매우 사실적으로 반영한 이미지를 만들어냈습니다. 이는 사용자의 구체적이고 창의적인 지시를 AI 이미지 생성 모델이 얼마나 정교하게 이해하고 구현할 수 있는지를 보여주는 흥미로운 사례입니다.

chatgpt 이미지 생성 AI 셀카

r/LocalLLaMA • 63일 전

PrismML, 로컬 브라우저 구동 텍스트-이미지 모델 발표

PrismML팀이 1비트와 3진법 가중치를 활용한 텍스트-이미지 디퓨전 트랜스포머인 Binary 및 Ternary Bonsai Image 4B를 공개했습니다. 기존 FLUX.2 Klein 4B 모델(약 16GB)과 비교해 약 3GB 수준으로 크기를 획기적으로 줄이면서도 WebGPU를 통해 브라우저 내에서 완벽하게 로컬 구동이 가능합니다. Apache-2.0 라이선스로 제공되어 누구나 제한 없이 사용하고 변형할 수 있는 오픈소스 모델이라는 점이 가장 큰 의의입니다.

오픈소스 이미지 생성 로컬 구동

r/ChatGPT • 65일 전

90년대 영화판 GTA5 영화 포스터

한 Reddit 사용자가 90년대 액션 코미디 영화 스타일로 GTA5 주요 인물을 캐스팅해 영화 포스터를 생성한 사례입니다. Michael De Santa에 존 트라볼타, Trevor Philips에 빌리 밥 손튼, Franklin Clinton에 아이스 큐브를 배정하고 로스앤젤레스 스카이라인을 배경으로 지시해, 이미지 생성 AI의 캐릭터 결합·스타일 재현 능력을 시연했습니다. 이는 팬덤 기반 크리에이티브 프롬프트 활용 사례로, AI 이미지 생성의 엔터테인먼트 활용을 보여줍니다.

이미지 생성 GTA5 영화 포스터

r/ChatGPT • 65일 전

IMP 2

평균 마트 고객 캐리커처

미국의 대표적인 4개 유통 브랜드(월마트, 타겟, 홀푸드, 트레이더 조스)의 전형적인 고객을 묘사하는 캐리커처 이미지 생성을 요청하는 프롬프트입니다. 이미지 내에서는 각각의 브랜드가 누구인지 명확하게 구분할 수 있도록 텍스트로 표기해야 합니다. 마케팅 타겟팅 및 사용자 페르소나 시각화에 활용될 수 있는 흥미로운 주제입니다.

이미지 생성 프롬프트 엔지니어링 캐리커처

r/ChatGPT • 67일 전

IMP 5

가장 완벽한 시간 여행 스냅샷

한 사용자가 이미지 생성 AI를 이용해 1890년대 눈 오는 날의 트롤리(전차) 안에서 찍은 스냅챗 셀카를 요청했습니다. 그 결과, 당시의 분위기를 완벽하게 재현한 매우 사실적이고 섬세한 결과물을 얻어냈습니다. 특히 창문 너머 밝은 하늘과 눈에서 비롯된 자연스러운 조명과 디테일 처리가 매우 훌륭하다는 평가를 받았습니다.

이미지 생성 AI 아트 프롬프트 엔지니어링

MarkTechPost • 69일 전

IMP 9

바이트댄스, 이미지와 영상의 이해·생성·편집 통합 멀티모달 AI 'Lance' 공개

바이트댄스가 이미지와 영상의 이해, 생성, 편집 기능을 하나의 모델에서 모두 처리할 수 있는 통합 모델 'Lance'를 발표했습니다. 이 모델은 이해(Understanding)와 생성(Generation) 작업을 각각 분리된 전문가 네트워크로 처리하는 듀얼 스트림 혼합 전문가(MoE) 아키텍처를 채택하여 작업 간 간섭 없이 높은 성능을 발휘합니다. 단일 모델로 텍스트, 이미지, 영상이라는 세 가지 모달리티를 자연스럽게 아우르며 시각 AI 분야의 중요한 이정표를 제시합니다.

멀티모달 비디오 생성 이미지 생성

r/ChatGPT • 69일 전

이미지 생성 프롬프트 엔지니어링 ChatGPT

GPT로 그린 가나자와 해변의 파도 실사화

한 사용자가 ChatGPT(이미지 생성 모델)를 이용해 ‘가나가와 해변의 파도’를 극사실주의 사진으로 재현한 경험을 공유했습니다. 초기 프롬프트에서 ‘그림을 사진처럼 다시 그려달라’는 지시만으로는 그림을 찍은 사진이 나왔으나, 파도·배·후면 산 등 피사체를 직접 명시하자 원화의 구도와 색감을 유지한 하이퍼 리얼리즘(초현실적) 사진이 생성되었습니다. 이는 이미지 생성 AI가 프롬프트의 구체성과 맥락에 얼마나 민감하게 반응하는지를 보여주는 사례입니다.

Hacker News • 69일 전

바이트댄스, 이미지·영상 생성·이해 통합 멀티모달 모델 Lance 공개

바이트댄스가 이미지와 비디오의 이해, 생성, 편집을 단일 프레임워크에서 모두 지원하는 30억(3B) 파라미터 규모의 통합 멀티모달 모델 'Lance'를 공개했습니다. 128대의 A100 GPU 환경에서 트랜스포머 백본을 완전히 처음부터 학습시켰음에도 불구하고, 기존 벤치마크에서 매우 경쟁력 있는 높은 성능을 입증했다는 점이 가장 큰 의의입니다. 이는 하나의 모델로 시각 데이터의 인식과 생성을 동시에 해결하는 최근 멀티모달 AI 기술 트렌드를 잘 보여줍니다.

멀티모달 바이트댄스 이미지 생성

Hacker News • 70일 전

클라우드플레어, 오픈소스 AI 모델 '플럭스' 공개

클라우드플레어가 블랙 포레스트 랩스(Black Forest Labs)와 협력하여 오픈소스 기반의 텍스트-투-이미지(T2I) 생성 AI 모델인 '플럭스(Flux)'를 자사 워커스 AI(Workers AI) 플랫폼에 추가했습니다. 이를 통해 개발자들은 별도의 복잡한 설정 없이도 API를 통해 고품질 이미지 생성 기능을 자체 애플리케이션에 빠르고 쉽게 통합할 수 있게 되었습니다. 이번 조치는 개발자 친화적인 에지(edge) 컴퓨팅 환경에 강력한 이미지 생성 도구를 제공하여, 향후 관련 AI 애플리케이션 개발과 대중화를 크게 가속화할 것으로 기대됩니다.

이미지 생성 클라우드플레어 오픈소스 AI

TechCrunch AI • 70일 전

구글 IO 2026, AI 디자인 경쟁에 본격 출사표

구글이 연례 개발자 행사인 구글 IO 2026에서 워크스페이스(Workspace) 통합형 AI 디자인 및 이미지 생성 앱인 'Pics'를 발표했습니다. 이 앱은 텍스트 프롬프트로 시각 자료를 쉽게 만들고 세부 수정까지 가능해 캔바(Canva) 등 기존 디자인 툴과 AI 경쟁사들을 직접 겨냥하고 있습니다. 생성된 이미지의 특정 부분만 클릭해 프롬프트나 코멘트로 수정할 수 있는 점, 전용 모델 'Nano Banana 2'를 탑재해 텍스트 렌더링과 시각적 디테일이 뛰어난 점이 핵심 차별점입니다.

구글 AI 디자인 이미지 생성

TechCrunch AI • 70일 전

구글, AI 디자인 시장 출사포

구글이 연례 개발자 행사인 I/O에서 간단한 텍스트 프롬프트와 문서 코멘트처럼 직관적인 수정 기능을 제공하는 AI 디자인 앱 '구글 픽스(Pics)'를 발표했습니다. 이 앱은 캔바(Canva) 등 기존 디자인 툴과 AI 경쟁사들을 직접 상대하며, AI 기반 시각 콘텐츠 제작이 핵심 경쟁 분야로 부상했음을 보여줍니다.

구글 이미지 생성 디자인

Google AI Blog • 70일 전

구글 워크스페이스의 새로운 AI 작업 방식

구글이 워크스페이스에 새로운 음성 대화 기능, 이미지 생성·편집 앱인 '구글 픽스(Google Pics)', 24시간 개인 AI 에이전트 '제미나이 스파크(Gemini Spark)' 등을 도입한다고 발표했습니다. 이번 업데이트는 사용자가 단순히 텍스트를 넘어 음성과 정밀한 이미지 편집 기능을 통해 작업 효율을 극대화할 수 있게 해준다는 점에서 중요합니다. AI Inbox 기능 확대와 함께 이번 신기능들은 구글 AI 구독자 및 워크스페이스 비즈니스 고객을 위해 이번 여름부터 순차적으로 제공될 예정입니다.

구글 워크스페이스 생산성 AI Gemini

r/ChatGPT • 71일 전

IMP 6

AI 이미지 생성기의 노출 필터링 한계와 허점

AI 이미지 생성 모델의 노출 및 성적 콘텐츠 생성 제한 정책과 관련된 Reddit 사용자의 경험담입니다. 사용자는 단일 프롬프트가 아닌 연속적인 대화를 통해 완전한 노출 이미지를 우회적으로 생성할 수 있었다고 밝혔습니다. 이는 AI 모델의 안전장치 우회 가능성과 기존 정책의 한계를 보여주는 중요한 사례입니다.

AI 안전 콘텐츠 필터 프롬프트 엔지니어링

The Decoder • 75일 전

알리바바 Qwen-Image-2.0, 압축률 2배 향상 및 생성 스텝 40→4 단축

알리바바가 발표한 'Qwen-Image-2.0' 기술 보고서에 따르면, 새로운 VAE(변이형 오토인코더) 도입으로 공간적 압축률을 16배로 2배 향상시키고, 트랜스포머 아키텍처 최적화를 통해 이미지 생성 스텝을 기존 40단계에서 단 4단계로 줄였습니다. 이를 통해 고품질의 복잡한 이미지를 훨씬 더 빠르고 적은 컴퓨팅 자원으로 생성할 수 있게 되어, 실무적인 이미지 생성 파이프라인의 효율성을 획기적으로 높였다는 점에서 중요합니다.

이미지 생성 알리바바 모델 아키텍처

Wired AI • 75일 전